这项工作提出了专门针对粒子探测器的低潜伏期图神经网络(GNN)设计的新型可重构体系结构。加速粒子探测器的GNN是具有挑战性的,因为它需要次微秒延迟才能在CERN大型强子撞机实验的级别1触发器中部署网络以进行在线事件选择。本文提出了一种自定义代码转换,并在基于互动网络的GNN中使用完全连接的图表中的矩阵乘法操作降低了强度,从而避免了昂贵的乘法。它利用了稀疏模式以及二进制邻接矩阵,并避免了不规则的内存访问,从而降低了延迟和硬件效率的提高。此外,我们引入了一种基于外部产品的基质乘法方法,该方法通过降低潜伏期设计的强度降低来增强。此外,引入了融合步骤,以进一步降低设计延迟。此外,提出了GNN特异性算法 - 硬件共同设计方法,该方法不仅找到了具有更好延迟的设计,而且在给定的延迟约束下发现了高精度的设计。最后,已经设计和开源了此低延迟GNN硬件体系结构的可自定义模板,该模板可以使用高级合成工具来生成低延迟的FPGA设计,并有效地利用资源。评估结果表明,我们的FPGA实施速度高24倍,并且消耗的功率比GPU实施少45倍。与我们以前的FPGA实施相比,这项工作的延迟降低了6.51至16.7倍。此外,我们的FPGA设计的延迟足以使GNN在亚微秒,实时撞机触发器系统中部署,从而使其能够从提高的精度中受益。
translated by 谷歌翻译
基于注意力的神经网络在许多AI任务中都普遍存在。尽管其出色的算法性能,但注意力机制和前馈网络(FFN)的使用仍需要过多的计算和内存资源,这通常会损害其硬件性能。尽管已经引入了各种稀疏变体,但大多数方法仅着重于缓解算法级别上的二次注意力缩放,而无需明确考虑将其方法映射到真实硬件设计上的效率。此外,大多数努力仅专注于注意机制或FFN,但没有共同优化这两个部分,导致当前的大多数设计在处理不同的输入长度时缺乏可扩展性。本文从硬件角度系统地考虑了不同变体中的稀疏模式。在算法级别上,我们提出了Fabnet,这是一种适合硬件的变体,它采用统一的蝴蝶稀疏模式来近似关注机制和FFN。在硬件级别上,提出了一种新颖的适应性蝴蝶加速器,可以在运行时通过专用硬件控件配置,以使用单个统一的硬件引擎加速不同的蝴蝶层。在远程 - ARENA数据集上,FabNet达到了与香草变压器相同的精度,同时将计算量减少10到66次,参数数量为2至22次。通过共同优化算法和硬件,我们的基于FPGA的蝴蝶加速器在归一化到同一计算预算的最新加速器上达到了14.2至23.2倍的速度。与Raspberry Pi 4和Jetson Nano上优化的CPU和GPU设计相比,我们的系统在相同的功率预算下的最大273.8和15.1倍。
translated by 谷歌翻译
深度神经网络(DNN)的算法 - 硬件共同设计的最新进展已经证明了它们在自动设计神经架构和硬件设计方面的潜力。然而,由于昂贵的培训成本和耗时的硬件实现,这仍然是一个充满挑战的优化问题,这使得对神经结构和硬件设计难以解答的巨大设计空间探索。在本文中,我们证明我们所提出的方法能够在帕累托前沿定位设计。这种功能由新颖的三相协同设计框架启用,具有以下新功能:(a)从硬件架构和神经结构的设计空间探索的DNN培训解耦,(b)提供硬件友好的神经结构空间通过考虑构造搜索单元的硬件特征,(c)采用高斯过程来预测准确性,延迟和功耗以避免耗时的合成和路由过程。与手动设计的Resnet101,Inceptionv2和MobileNetv2相比,我们可以在想象网数据集中获得高达3倍的准确度,高达5%的准确性。与其他最先进的共同设计框架相比,我们发现的网络和硬件配置可以达到更高的2%〜6%,精度为2倍〜26倍,延迟较高8.5倍。
translated by 谷歌翻译
神经网络在广泛的任务中展示了他们出色的表现。具体地,基于长短短期存储器(LSTM)单元格的复发架构表现出了在真实数据中模拟时间依赖性的优异能力。然而,标准的经常性架构无法估计其不确定性,这对于安全关键型应用如医学,这是必不可少的。相比之下,贝叶斯经常性神经网络(RNN)能够以提高的精度提供不确定性估计。尽管如此,贝叶斯的RNN是在计算上和记忆所要求的,尽管他们的优势尽管他们的实用性限制了他们的实用性。为了解决这个问题,我们提出了一种基于FPGA的硬件设计,以加速基于贝叶斯LSTM的RNN。为了进一步提高整体算法 - 硬件性能,提出了一种共同设计框架来探索贝叶斯RNN的最适合的算法 - 硬件配置。我们对医疗保健应用进行了广泛的实验,以证明我们的设计和框架的有效性的提高。与GPU实施相比,我们的FPGA的设计可以实现高达10倍的加速,能效率较高的近106倍。据我们所知,这是第一份针对FPGA上的贝叶斯RNN的加速的工作。
translated by 谷歌翻译
神经网络(NNS)已经在广泛的应用中证明了它们的潜力,例如图像识别,决策或推荐系统。然而,标准NNS无法捕获其模型不确定性,这对于包括医疗保健和自治车辆的许多安全关键应用至关重要。相比之下,贝叶斯神经网络(BNNS)能够通过数学接地表达他们预测中的不确定性。尽管如此,BNN尚未广泛用于工业实践,主要是由于其昂贵的计算成本和有限的硬件性能。这项工作提出了一种新的基于FPGA的硬件架构,可以通过Monte Carlo辍学加速BNN推断。与其他最先进的BNN加速器相比,所提出的加速器可以达到高达4倍的能量效率和9倍的计算效率。考虑到部分贝叶斯推断,提出了一种自动框架,探讨了硬件和算法性能之间的权衡。进行广泛的实验以证明我们所提出的框架可以有效地找到设计空间中的最佳点。
translated by 谷歌翻译
This paper presents a subsampling-task paradigm for data-driven task-specific experiment design (ED) and a novel method in populationwide supervised feature selection (FS). Optimal ED, the choice of sampling points under constraints of limited acquisition-time, arises in a wide variety of scientific and engineering contexts. However the continuous optimization used in classical approaches depend on a-priori parameter choices and challenging non-convex optimization landscapes. This paper proposes to replace this strategy with a subsampling-task paradigm, analogous to populationwide supervised FS. In particular, we introduce JOFSTO, which performs JOint Feature Selection and Task Optimization. JOFSTO jointly optimizes two coupled networks: one for feature scoring, which provides the ED, the other for execution of a downstream task or process. Unlike most FS problems, e.g. selecting protein expressions for classification, ED problems typically select from highly correlated globally informative candidates rather than seeking a small number of highly informative features among many uninformative features. JOFSTO's construction efficiently identifies potentially correlated, but effective subsets and returns a trained task network. We demonstrate the approach using parameter estimation and mapping problems in clinically-relevant applications in quantitative MRI and in hyperspectral imaging. Results from simulations and empirical data show the subsampling-task paradigm strongly outperforms classical ED, and within our paradigm, JOFSTO outperforms state-of-the-art supervised FS techniques. JOFSTO extends immediately to wider image-based ED problems and other scenarios where the design must be specified globally across large numbers of acquisitions. Code will be released.
translated by 谷歌翻译
精确分割是分析心脏周期语义信息并使用心血管信号捕获异常的至关重要的第一步。但是,在深层语义分割领域,通常会单方面与数据的个体属性相混淆。走向心血管信号,准周期性是要学习的必不可少的特征,被视为形态学属性(AM)和节奏(AR)的合成。我们的关键见解是在深度表示的生成过程中抑制对AM或AR的过度依赖性。为了解决这个问题,我们建立了一个结构性因果模型,作为分别自定义AM和AR的干预方法的基础。在本文中,我们提出了对比性因果干预(CCI),以在框架级对比框架下形成一种新颖的训练范式。干预可以消除单个属性带来的隐式统计偏见,并导致更客观的表示。我们对QRS位置和心脏声音分割的受控条件进行了全面的实验。最终结果表明,我们的方法显然可以将QRS位置的性能提高高达0.41%,心脏声音分段为2.73%。该方法的效率推广到多个数据库和嘈杂的信号。
translated by 谷歌翻译
我们提出了Prosub:渐进式采样,这是一种基于深度学习的自动化方法,该方法是一个过采样的数据集(例如,多通道的3D图像),信息损失最小。我们以最近的双NETWORK方法为基础,该方法赢得了MICCAI多扩散(MUDI)定量MRI测量测量取样重建挑战,但通过在艰难的决策边界进行下采样,遭受了深度学习训练的不稳定。 Prosub使用递归功能消除(RFE)的范式,并在深度学习训练期间逐步进行亚子样本测量,从而提高优化稳定性。 Prosub还集成了神经体系结构搜索(NAS)范式,从而允许网络体系结构超参数响应亚群采样过程。我们显示,Prosub优于Mudi Miccai挑战的获胜者,在MUDI挑战子任务和对临床应用有用的下游过程的定性改进方面产生了> 18%的MSE。我们还展示了合并NAS并分析Prosub组件的效果的好处。由于我们的方法概括了除MRI测量选择重建之外的其他问题,因此我们的代码是https://github.com/sbb-gh/prosub
translated by 谷歌翻译
预测一组结果 - 而不是独特的结果 - 是统计学习中不确定性定量的有前途的解决方案。尽管有关于构建具有统计保证的预测集的丰富文献,但适应未知的协变量转变(实践中普遍存在的问题)还是一个严重的未解决的挑战。在本文中,我们表明具有有限样本覆盖范围保证的预测集是非信息性的,并提出了一种新型的无灵活分配方法PredSet-1Step,以有效地构建了在未知协方差转移下具有渐近覆盖范围保证的预测集。我们正式表明我们的方法是\ textIt {渐近上可能是近似正确},对大型样本的置信度有很好的覆盖误差。我们说明,在南非队列研究中,它在许多实验和有关HIV风险预测的数据集中实现了名义覆盖范围。我们的理论取决于基于一般渐近线性估计器的WALD置信区间覆盖范围的融合率的新结合。
translated by 谷歌翻译
对于人工学习系统,随着时间的流逝,从数据流进行持续学习至关重要。对监督持续学习的新兴研究取得了长足的进步,而无监督学习中灾难性遗忘的研究仍然是空白的。在无监督的学习方法中,自居民学习方法在视觉表示上显示出巨大的潜力,而无需大规模标记的数据。为了改善自我监督学习的视觉表示,需要更大和更多的数据。在现实世界中,始终生成未标记的数据。这种情况为学习自我监督方法提供了巨大的优势。但是,在当前的范式中,将先前的数据和当前数据包装在一起并再次培训是浪费时间和资源。因此,迫切需要一种持续的自我监督学习方法。在本文中,我们首次尝试通过提出彩排方法来实现连续的对比自我监督学习,从而使以前的数据保持了一些典范。我们通过模仿旧网络通过一组保存的示例,通过模仿旧网络推断出的相似性分数分布,而不是将保存的示例与当前数据集结合到当前的培训数据集,而是利用自我监督的知识蒸馏将对比度信息传输到当前网络。此外,我们建立一个额外的样本队列,以帮助网络区分以前的数据和当前数据并在学习自己的功能表示时防止相互干扰。实验结果表明,我们的方法在CIFAR100和Imagenet-Sub上的性能很好。与基线的学习任务无需采用任何技术,我们将图像分类在CIFAR100上提高了1.60%,Imagenet-Sub上的2.86%,在10个增量步骤设置下对Imagenet-Full进行1.29%。
translated by 谷歌翻译